强化学习 (RL) 已证明可成功实现模拟 1 型糖尿病 (T1D) 患者的胰岛素自动给药,但目前无法融入患者的专业知识和偏好。这项工作引入了 PAINT(T1D 胰岛素控制偏好适应),这是一个原始的 RL 框架,用于从患者记录中学习灵活的胰岛素给药政策。PAINT 采用基于草图的方法进行奖励学习,其中过去的数据用连续的奖励信号注释以反映患者的期望结果。标记数据训练奖励模型,为新型安全约束离线 RL 算法的行为提供信息,该算法旨在将行为限制在安全策略内并通过滑动比例实现偏好调整。计算机模拟评估表明,PAINT 通过简单标记期望状态实现了常见的血糖目标,与商业基准相比,将血糖风险降低了 15%。动作标签还可用于整合患者的专业知识,展示在患者指导下预先安排进餐(餐后时间范围内增加 10%)和解决某些设备错误(错误后方差为 -1.6%)的能力。这些结果在现实条件下成立,包括样本有限、标签错误和患者内部差异。这项工作说明了 PAINT 在现实世界的 T1D 管理中的潜力,以及更广泛地说,在安全约束下需要快速和精确偏好学习的任何任务中的潜力。
主要关键词
![arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日PDF文件第1页](/bimg/f/fb0c59e70d9cdc553a2f92841de083ee32ddb003.webp)
![arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日PDF文件第2页](/bimg/6/6e9342d0c9e21e18ead27af9c76fd7cfd3a843a1.webp)
![arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日PDF文件第3页](/bimg/4/43a5db2c88d8b2953cd7681d1169089a8a73a0c9.webp)
![arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日PDF文件第4页](/bimg/4/4412d8dd95a09bac4159c32fc0cdbb3e5ac6a88e.webp)
![arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日PDF文件第5页](/bimg/4/4d9db789fc62eb7a07a8a5e1a3115f55fe699c68.webp)
